Ames Fire Insurance
🔥 우리는 LS 화재보험사

에임즈(Ames) 시에 새로운 보험상품을 출시하려 합니다.
그런데 이 지역은 자재별 화재 위험도가 어떤지,
보험금은 얼마로 책정해야 수익이 날 수 있을지,
아무도 정확히 모릅니다.

  • 📦 주택 가격은 어떤지
  • 🧱 자재에 따른 화재 위험도는 어떤지
  • 🔥 화재 위험도와 가격의 관계가 어떤지
  • 💰 보험 수익은 어디서 발생하는지
이제 데이터를 기반으로,
에임즈 시의 보험료를 직접 산정해보겠습니다.
📌 프로젝트 배경

최근 기후 변화노후화된 주택 문제로,
미국 내 화재 사고가 증가하고 있습니다.
캘리포니아 산불 사례처럼, 보험사는 막대한 손실을 입을 수 있습니다.

그렇다면, 우리는 사전 예측과 리스크 분석을 통해
보다 정밀한 보험료 책정이 가능할까요?

Ames Housing 데이터를 기반으로
데이터 기반 화재보험 모델을 구축합니다.
🧭 분석 흐름 요약

1️⃣ 화재 위험 지역 시각화
2️⃣ 크기 대비 가격 분포 분석
3️⃣ 화재 위험 지표와 가격 상관관계 분석
4️⃣ 보험료 산정 모델링
5️⃣ 손익분기점 분석

🗺️ 1. 위험도 기반 주택 시각화
📋 2. 화재 위험도 산정 기준표
위험도1 위험도2 위험도3 위험도4 위험도5
지붕 자재 (30%) Metal CompShg, Tar&Grv Roll, Membran WdShngl WdShake
외벽 재질(30%) MetalSd, CemntBd, BrkFace… ImStucc,Stucco VinylSd, HdBoard, AsphShn Wd Sdng, WdShing, Plywood
외벽 장식 재질(10%) MetalSd,CemntBd,BrkFace… Stucco, ImStucc VinylSd HdBoard, AsphShn Wd Sdng, WdShing, Plywood
외벽 마감재(10%) BrkFace,Stone,BrkCmn
목재 바닥 넓이(20%) 0 1~100 101~250 251~400 400
  • 지붕과 외벽은 화재 시 가장 먼저 타는 1차적 취약 요소입니다.
  • 목재 바닥은 불씨에 쉽게 착화되며,
  • 외벽 마감재와 장식은 상대적으로 위험도는 낮지만 가연성일 경우 주의가 필요합니다.

📎 자세한 기준은 NFPA 공식 가이드에서 확인할 수 있습니다.
🔗 NFPA - Preparing Homes for Wildfire

📊 3. 위험도별 주택수량 막대그래프
📊 1. 가격 & 평단 가격 시각화
📐 2. 평당 단가
  • \(F = \frac{BV}{LA} \cdot 35.5832\)
  • \(BV = SP - LV\)
  • \(LV = (\alpha \cdot LA)/ DM \cdot SP\)
  • \(DM = \alpha \cdot LA + (1-\alpha)\cdot \operatorname{TotalSF}\)
  • \(\operatorname{TotalSF} = \sum_{i=0}^N SF_i\)

  • \(F\): 피트당 가격
  • \(BV\): 빌딩 가격
  • \(LA\): 전체 면적
  • \(SP\): 부동산 실거래가
  • \(LV\): 땅값
  • \(\alpha(=0.6)\): 땅값과 건물에 대한 가중치
  • \(DM\): denominator
  • \(\operatorname{TotalSF}\): 총 건물 면적
  • \(SF_i\): 각 층의 총면적(\(i = \{0, ..., N \} = \{지하, 1층, 2층 \}\))
  • \(35.5832\) : 피트 -> 평 변환
📉 3. 가격 분포 막대그래프
📝 1에 대한 해석
  • 기존 데이터셋의 거래금액(SalePrice)은 땅 면적이나 건물 크기 등의 요소를 반영하지 않은 총액 기준

  • 우리는 이를 보완하기 위해 땅의 면적(LotArea)건물의 총면적(TotalSF)을 고려하여 단위 면적당 가치(평단가)로 재구성함

  • 이로 인해 단순 부동산 거래금액이 아닌 실제 자산 가치 기반의 지역 특성을 반영할 수 있었음

  • 결과적으로, 부촌 지역과 일반 지역 간의 가치 분포 차이가 두 지도로 명확히 구분됨

📊 위험등급에 따른 주택가격 (모수)
  • 위험도별 가격 평균 차이 있음
anova result:                       sum_sq      df          F        PR(>F)
C(Risk_Level)  1.140682e+07     3.0  50.181071  1.629110e-31
Residual       1.949590e+08  2573.0        NaN           NaN
검정통계량: 0.935, 유의확률: 0.000

정규성 검정 결과 정리
구분 내용
해석 - 귀무가설: 데이터가 정규분포를 따른다.
- 대립가설: 데이터가 정규분포를 따르지 않는다.
- 유의확률(p=0.000)이 유의수준(α=0.05)보다 매우 작음.
- 따라서 귀무가설을 기각함.
결론 - 데이터는 정규분포를 따르지 않음.
앞으로의 방향 - 정규성 가정이 위배되므로 모수적 검정(t-검정, ANOVA 등) 적용 시 주의 필요
- 비모수적 방법(Kruskal-Wallis 등) 고려 권장
  • Bartlett 등분산성 검정 통과
검정통계량: 68.78141877647354, p-value: 7.78327128923569e-15

Bartlett 등분산성 검정 결과 정리
구분 내용
해석 - 귀무가설: 모든 그룹의 분산이 동일하다.
- 대립가설: 적어도 하나의 그룹이 다른 분산을 가진다.
- 검정통계량: 68.78141877647354
- 유의확률(p=7.78e-15)이 유의수준(α=0.05)보다 매우 작음.
- 따라서 귀무가설을 기각함.
결론 - 위험도 그룹 간 분산이 동일하지 않음.
- 등분산성 가정이 위배됨.
앞으로의 방향 - 등분산성 가정이 위배되므로 표준 ANOVA 사용 시 주의 필요
- 등분산성을 가정하지 않는 Welch ANOVA 고려
- 비모수적 방법(Kruskal-Wallis 등) 사용 권장
- 데이터 변환(로그 변환 등)을 통한 분산 안정화 고려 가능
📊 위험등급에 따른 주택가격 (비모수)
  • Kruskal-Wallis 검정(비모수 검정)을 통해 위험도별 주택 평단가의 차이가 통계적으로 유의미한지 확인
항목
0 검정통계량 (H) 178.903747
1 p-value 0.0
2 결론 ✔️ 그룹 간 차이가 유의함 (p < 0.05)
  • Dunn-test(비모수 사후검정) 결과

  • 일부 그룹 간 유의한 차이 존재하는지 검정

  • 비모수 사후검정 실시 결과 위험도 2와 기타 위험도 간의 차이만 유의미함

  • 위험도 1,3,4간의 차이는 유의미 하지 않음

1.0 2.0 3.0 4.0
1.0 1.000000e+00 9.105248e-17 1.000000e+00 1.941157e-01
2.0 9.105248e-17 1.000000e+00 3.678633e-31 4.735048e-08
3.0 1.000000e+00 3.678633e-31 1.000000e+00 2.790989e-01
4.0 1.941157e-01 4.735048e-08 2.790989e-01 1.000000e+00
📈 위험도별 주택가격 Bar Plot
🔍 결과 해석
  • 위험도 2등급 주택은
      📈 다른 등급과 비교해 중앙값 기준으로 통계적으로 유의미하게 높은 가격을 보였습니다.

  • ❗ 하지만,
      그 외 위험도 간의 중앙값 가격 차이는 통계적으로 유의하지 않았습니다.

  • 👉 따라서,
      위험도 2에 해당하는 주택은 상대적으로 더 비싼 편이라고 해석할 수 있습니다.

“⚠ 데이터 해석의 한계”
  • 🧱 부동산 가격은 자재 외에도
      위치, 건물 크기, 연식, 토지 조건, 지역 수요 등 다양한 요인의 영향을 받습니다.

  • 즉, 자재 기반의 위험도만으로는
      주택 가격의 모든 변동성을 충분히 설명하기 어렵습니다.

  • 📌 따라서,
      위험도는 ’가격에 영향을 주는 요인 중 하나’일 뿐이며,
      단독 요인으로 해석하는데 한계가 있다.

🔧 보험료 예측 모델
  • MSE: 25903.67405431691

  • RMSE: 160.94618372088513

  • \(R^2\): 0.9999953867303233

🗺️ 예측 보험료 지도 시각화
💰 보험료 산정 공식
\(\mathbf{Y} =\big(P \cdot W_0 \big) \cdot W_1\)
  • \(\mathbf{Y}\): 예상 보험액
  • \(P\): 예상 부동산 거래액
  • \(W_0\): 연간 평균 산정 부가비율(0.03%)
  • \(W_1\): 위험도별 가중치 평균
위험도별 가중치 책정 기준
위험도1 위험도2 위험도3 위험도4 위험도5
가중치 수치 0.95 0.975 1 1.025 1.05
📈 손익 시나리오 그래프
📌 결론 요약
  • 🔥 화재(전소) 발생률이 약 0.368%를 초과하면 보험사는 손해를 볼 가능성 있음

    👉 즉, 10,000가구 중 37가구 이상 화재 발생 시 손실 발생

  • 0.368% 이하로 화재 발생률을 관리할 경우 수익 확보 가능

  • 📊 그러나 본 수치는 “평균 피해 금액”을 기반으로 계산된 기대값이며,
    절대값이 아닌 통계적 평균 기준